1.6亿用户、1亿回答……揭秘知乎背后的“父爱算法”
新时代,新技术,新变革。叩问网络媒体谁主沉浮?且听业内人士谈经论道!技术引领发展,智能重构传播。当媒体发展遇上人工智能,会擦出怎样的火花?《网络传播》杂志微信公众号特设“传媒论道”专栏,近期将围绕“智能传播”话题,邀请专家学者、传媒人士探讨智能传播现象,追问算法伦理风险,展望未来发展之道。持续连载中,敬请期待!
近日,知乎发布最新数据显示,平台注册用户达1.6亿,年增长达到 95.12%,回答数突破1亿。知乎正式从一个服务于一部分人的知识社区,迈向一个普惠的内容平台。面对海量内容,仅依靠传统人工手段相对低效,算法推荐则成为保障知乎这座“超级城市”文明有序的必经之路。《网络传播》独家对话知乎合伙人、高级副总裁李大海,来听一听知乎是如何通过算法来推荐优质内容的。
传播君:知乎在识别和推荐优质内容方面,是如何通过算法来实现的?
李大海:在识别和推荐优质内容方面,知乎和业界的通行做法一样,建立了一套可以同时应用在内容和用户上的标签系统,根据每个用户过去的阅读历史来打标签。同时,知乎在给用户推荐内容的时候,不断地探索用户的兴趣边界,帮助用户发现更大的世界,给用户打上更多的标签。
但是,这种方法有一个弊端,即从逻辑上来说,它只能预测用户平稳的兴趣变化,但如果用户的兴趣改变,或突然兴起,却是知乎无法预料的,比如用户忽然想学钢琴,知乎是没办法在第一时间了解的。知乎正在考虑增加基于状态转移的兴趣预测,来尽可能地解决这个问题。举个例子,如果用户近期一直在搜索孕期的各种知识,那么知乎可以试着在几个月后预测她(他)可能会对新生儿护理感兴趣。
传播君:同样是算法,全行业都在研究用户喜好,拼命推荐内容,而知乎却将算法大规模应用于社区氛围的管理。请介绍一下知乎管理社区氛围的算法机制是什么?
李大海:知乎目前通过算法机器人瓦力实时高效处理多个场景,如答非所问、歧视、恶意贴标签、辱骂等各种不友善行为,以全力减少低质和无关内容对读者的干扰,降低网络暴力,为用户提供人文关怀。目前,瓦力的准确率在部分场景中最高能达到 99.13%。后续,知乎会在保证准确率的基础上,不断提升瓦力的覆盖范围。
此外,知乎还尝试在语义分析的基础上,进行情感分析的前沿探索。知乎通过对庞大且高质量用户行为数据的分析、学习,对语义和用户关系这两方面进行更深层次的理解和建模,从而有机会突破“识别反讽”这个一直困扰情感分析领域的前沿话题。这将对中文互联网乃至世界互联网的讨论环境产生促进作用。
传播君:算法是一把双刃剑,其带来的优势与风险并存。为预防算法风险,知乎采取了哪些举措?
李大海:理想的推荐算法应该是母爱算法和父爱算法的结合。所谓父爱算法,就是不断通过优质的内容引导用户去探索他的兴趣边界,发现更大的世界,让用户既能获得感兴趣的内容也能获得有帮助的内容。这个对于知乎和知乎的用户来说尤其重要,这就是我们的核心使命。因此我们在父爱算法上花的精力尤其多,其中包括对优质内容的识别、对推荐算法召回排序方式的优化,以及运营同事对于分发的干预。整体来说,知乎采用的算法会将更多参数作为推荐内容的依据,用优质的内容引导用户去探索兴趣边界,发现更大的世界。
传播君:算法只是一种工具,可以运用但不能过度依赖。知乎未来将如何更好地运用好算法这一工具?
李大海:在应用 AI 上,知乎有两大优势。首先,知乎积累了非常好的中文语料库。知乎上不仅有大量优质问题和回答文本,同时,用户在知乎上的行为也是非常重要的数据。用户在生产和消费内容的同时,还会一同参与社区建设,比如,用户对回答的赞同和反对,对内容的举报,对问题和话题进行公共编辑等等。通过这些有监督的语料,知乎对于语言的理解可以达到一个更高的层次。此外,知乎还积累了非常丰富的社区管理经验。在摸索社区规范的过程中深刻理解了不同用户的不同诉求,让社区规范适配复杂多样的场景。这些经验亦为知乎使用 AI 算法来进行氛围治理打下了坚实的基础。
资讯类APP如何做到“千人千面”?揭秘北京时间的“聪明算法”